Classifying logo images is a challenging task as they contain elements such as text or shapes that can represent anything from known objects to abstract shapes. While the current state of the art for logo classification addresses the problem as a multi-class task focusing on a single characteristic, logos can have several simultaneous labels, such as different colors. This work proposes a method that allows visually similar logos to be classified and searched from a set of data according to their shape, color, commercial sector, semantics, general characteristics, or a combination of features selected by the user. Unlike previous approaches, the proposal employs a series of multi-label deep neural networks specialized in specific attributes and combines the obtained features to perform the similarity search. To delve into the classification system, different existing logo topologies are compared and some of their problems are analyzed, such as the incomplete labeling that trademark registration databases usually contain. The proposal is evaluated considering 76,000 logos (7 times more than previous approaches) from the European Union Trademarks dataset, which is organized hierarchically using the Vienna ontology. Overall, experimentation attains reliable quantitative and qualitative results, reducing the normalized average rank error of the state-of-the-art from 0.040 to 0.018 for the Trademark Image Retrieval task. Finally, given that the semantics of logos can often be subjective, graphic design students and professionals were surveyed. Results show that the proposed methodology provides better labeling than a human expert operator, improving the label ranking average precision from 0.53 to 0.68.
translated by 谷歌翻译
视网膜性状或表型,总结了单个数字的视网膜图像的特定方面。然后可以将其用于进一步的分析,例如使用统计方法。但是,将复杂图像的一个方面减少到一个有意义的数字是具有挑战性的。因此,计算视网膜性状的方法往往是复杂的多步管道,只能应用于高质量的图像。这意味着研究人员通常必须丢弃大量可用数据。我们假设可以通过一个更简单的步骤来近似此类管道,这可以使常见的质量问题变得强大。我们提出了视网膜特征(DART)的深近似,其中使用深神经网络预测了这些图像的合成降解版本的高质量图像的现有管道的输出。我们使用来自英国生物库的视网膜图像计算出的视网膜分形尺寸(FD)的飞镖,这些图像先前的工作被确定为高质量。我们的方法在看不见的测试图像上显示与FD吸血鬼非常一致(Pearson r = 0.9572)。即使这些图像严重退化,DART仍然可以恢复FD估计值,该估计值与从原始图像获得的FD吸血鬼表示良好(Pearson r = 0.8817)。这表明我们的方法可以使研究人员将来丢弃更少的图像。我们的方法可以使用单个GPU计算超过1,000IMG/s的FD。我们认为这些是非常令人鼓舞的初步结果,并希望将这种方法发展为视网膜分析的有用工具。
translated by 谷歌翻译
目前,数据赢得了用户生成的数据和数据处理系统之间的大鼠竞赛。机器学习的使用增加导致处理需求的进一步增加,而数据量不断增长。为了赢得比赛,需要将机器学习应用于通过网络的数据。数据的网络分类可以减少服务器上的负载,减少响应时间并提高可伸缩性。在本文中,我们使用现成的网络设备以混合方式介绍了IISY,以混合方式实施机器学习分类模型。 IISY针对网络内分类的三个主要挑战:(i)将分类模型映射到网络设备(ii)提取所需功能以及(iii)解决资源和功能约束。 IISY支持一系列传统和集合机器学习模型,独立于开关管道中的阶段数量扩展。此外,我们证明了IISY用于混合分类的使用,其中在一个开关上实现了一个小模型,在后端的大型模型上实现了一个小模型,从而实现了接近最佳的分类结果,同时大大降低了服务器上的延迟和负载。
translated by 谷歌翻译
我们提出了一个基于深度学习的自动咳嗽分类器,可以区分结核病(TB)与Covid-19咳嗽和健康咳嗽。 TB和Covid-19都是呼吸道疾病,具有传染性,咳嗽是一种主要的症状,每年夺走了数千人的生命。在室内和室外设置都收集了咳嗽的录音,并使用来自全球各地受试者的智能手机上传,因此包含各种噪声。该咳嗽数据包括1.68小时的结核病咳嗽,18.54分钟的咳嗽,咳嗽和1.69小时的健康咳嗽,47例TB患者,229例Covid-19患者和1498例健康患者,并用于培训和评估CNN,LSTM和Resnet505050 。这三个深度体系结构在2.14小时的打喷嚏,2.91小时的语音和2.79小时的噪音中也进行了预训练,以提高性能。通过使用SMOTE数据平衡技术并使用诸如F1得分和AUC之类的性能指标来解决我们数据集中的类不平衡。我们的研究表明,从预先训练的RESNET50中获得了最高的0.9259和0.8631的F1分数,两级(TB与CoVID-19)和三级(TB VS VS COVID-19与健康)的咳嗽分类,咳嗽分类,,咳嗽分类任务,三级(TB vs vs covid-19)分别。深度转移学习的应用改善了分类器的性能,并使它们更加坚固,因为它们在交叉验证折叠上更好地概括了。他们的表现超过了世界卫生组织(WHO)设定的结核病分类测试要求。产生最佳性能的功能包含MFCC的高阶,这表明人耳朵无法感知结核病和COVID-19之间的差异。这种类型的咳嗽音频分类是非接触,具有成本效益的,并且可以轻松地部署在智能手机上,因此它可以成为TB和COVID-19筛查的绝佳工具。
translated by 谷歌翻译
深度学习(DL)模型在许多计算机视觉问题上非常有效,并且越来越多地用于关键应用。他们也是黑人盒子。存在许多方法以生成图像明智的解释,其允许从业者理解和验证给定图像的模型预测。除此之外,希望验证DL Model \ Textit {一般}以明智的方式工作,即与域知识一致,而不是依赖于不期望的数据伪影。为此目的,需要在全球范围内解释模型。在这项工作中,我们专注于自然对齐的图像模态,使得每个像素位置表示成像对象上的相似位置,如在医学成像中常见。我们提出了图像明智的解释的像素明智的聚合作为获得标签和整体全局解释的简单方法。然后,这些可以用于模型验证,知识发现,以及传达从检查图像明智的解释的定性结论的有效方法。我们进一步提出了进步擦除加上渐进式恢复(PEPPR)作为定量验证这些全球解释忠于模型如何使其预测的方法。然后,我们将这些方法应用于超广域视网膜图像,是一种自然对齐的模态。我们发现全球解释与域知识一致,忠实地反映了模型的工作。
translated by 谷歌翻译
在本文中,我们研究了在共享物理空间中运行时的影响界面和反馈对人机信任级别的反馈。我们使用的任务是为室内环境中的机器人指定“无-Go”区域。我们评估三种界面(物理,AR和基于地图)和四个反馈机制(无反馈,机器人在空间,AR“栅栏”和地图上标记的区域)。我们的评估看起来可用和信任。具体而言,如果参与者信任机器人“知道”在禁止地区是禁止机器人避免该区域的能力的地方。我们使用自我报告和间接的信任措施和可用性。我们的主要研究结果是:1)接口和反馈确实影响信任水平;2)参与者在很大程度上优选的混合界面反馈对,其中界面的模态与反馈不同。
translated by 谷歌翻译
我们提出“唤醒咳嗽”,这是使用resnet50咳嗽到咳嗽的应用,并使用i-vectors识别咳嗽者,以实现长期的个性化咳嗽监测系统。咳嗽记录在一个安静(73 $ \ pm $ 5 dB)和嘈杂(34 $ \ pm $ 17 dB)环境中,用于提取I-向量,X-向量和D-向量,用作分类器的功能。当使用MLP使用2-SEC长咳嗽片段在嘈杂的环境中使用MLP区分51个咳嗽者时,该系统可以达到90.02 \%的精度。当在安静环境中使用更长(100秒)段的5和14个咳嗽者区分5至14个咳嗽者时,这种准确性分别提高到99.78%和98.39%。与语音不同,I-向量在识别咳嗽者方面的表现优于X-向量和D-向量。这些咳嗽是在Google语音命令数据集中添加的额外类,并通过在触发短语中保存端到端的时间域信息来提取功能。使用RESNET50在35个其他触发短语中发现咳嗽时,达到了88.58%的最高精度。因此,Wake咳嗽代表了一个个性化的,非侵入性的咳嗽监测系统,该系统的功率有效,因为在设备上的唤醒词检测可以使基于智能手机的监视设备大多处于休眠状态。这使伴尾咳嗽在多床病房环境中极具吸引力,以监测患者从肺部疾病(例如结核病(TB)和Covid-19)中的长期恢复。
translated by 谷歌翻译
多视图数据是指特征被分成特征集的设置,例如因为它们对应于不同的源。堆叠惩罚的逻辑回归(Staplr)是最近引入的方法,可用于分类并自动选择对预测最重要的视图。我们将此方法的扩展引入到数据具有分层多视图结构的位置。我们还为STAPLR介绍了一个新的视图重要性措施,这使我们能够比较层次结构的任何级别的视图的重要性。我们将扩展的STAPLR算法应用于Alzheimer的疾病分类,其中来自三种扫描类型的不同MRI措施:结构MRI,扩散加权MRI和休息状态FMRI。Staplr可以识别哪种扫描类型以及MRI措施对于分类最重要,并且在分类性能方面优于弹性净回归。
translated by 谷歌翻译